iT邦幫忙

2021 iThome 鐵人賽

DAY 2
1
IT管理

那些年我所學會的【Infra】管理系列 第 2

【Day2】談談何謂「單點故障」?

  • 分享至 

  • xImage
  •  

什麼是「單點故障」?
單點故障的英文是 (single point of failure,簡稱 SPOF),指的是系統上的某一個物理節點故障,而導致整個系統無法運作的現象。
通常這個名稱,我們比較常把它用在系統或網路架構上。
例如下圖一,若架構設計上只有一台SAN Switch,則此時「A點」便存在SPOF風險。
當它故障時,整個VM系統就會無法運作。
圖一、
https://ithelp.ithome.com.tw/upload/images/20210918/20010931J7voMCfUW6.png
因此設計上為了滿足高可用(High Availability),我們會把系統架構設計為下圖:
圖二、
https://ithelp.ithome.com.tw/upload/images/20210918/20010931mjv28b2QUa.png
這就是為什麼Infra需要理解單點故障,一旦發生SPOF,輕則只是短暫影響,重則就是一場災難。
通常公司越重要(critical)的系統,我們越希望能具備高可用度 High Availability
經過幾年的Infra管理及親身體驗,個人認為「單點故障」再延伸後可以包含以下幾點:
1.硬體
硬體的SPOF就像圖一的例子,當架構設計不良或經費考量只能盡量滿足現況時就會存在風險,即使設計如圖二,仍然存在儲存故障的風險。因此高可用=高成本,實際上大部分企業只能盡量滿足,而無法全面滿足SPOF。
2.網路
網路的架構和硬體雷同,我們必須考量專線斷線、防火牆故障、交換器故障的可能性。
3.電力
電力包含了電源電路、UPS不斷電系統、硬體是否具備冗餘電源系統 (Redundant Power System)。
4.空調
空調通常是機房設備冷卻的重要設施,也需要有備援,大企業通常會使用兩台空調交換運作。機房一旦溫度升高就會造成設備的停擺或損壞,個人就曾經遇過兩台一起故障,且機房八成的設備因過熱一起亮橘燈
5.人
人的管理其實是一個企業忽略的隱憂,人員按錯開關導致SAN Switch關機以及機電人員(非MIS)誤將機房總開關OFF(UPS 開始倒數計時),都是個人遇過的切身之痛。

以上就是這些年【Infra】管理一些心得,我發現機房、系統架構設計的再好,都不能滿足SPOF風險(除非該企業有双活資料中心),

【人員的管理才是單點故障最大風險】


上一篇
【Day1】Infra管理有哪些?
下一篇
【Day3】伺服器管理(1)-實體機的基礎建置
系列文
那些年我所學會的【Infra】管理3
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言